大数据时代语言研究的方法和趋向
语言研究的转变:从“花园”到“灌木丛”
布里斯南是乔姆斯基的博士生,她在文中还回忆了自己 20 世纪 60 年代在麻省理工学院跟随乔姆斯基读博士的情况。那个时期,整个世界都为乔姆斯基的想法所吸引。语言被视为符号模式所组成的集合,通过采用符号逻辑公式,分析人类语言结构,探索人类的语言与心智——这当然是非常激动人心 的。当时被这个想法所鼓舞的人很多。其中有一位工科博士,比她在麻省理工入学早几年,甚至一度打算从他攻读的信息论专业转到语言学。但由于他 导师不同意,他只好把信息论的博士读完 。这个人正是后来说要“解雇语言学家”的杰利内克。这不禁令人疑惑 :语言学发展的几十年间,是什么使得像杰利内克这样一位热衷于理论(形式)语言学的热血青年,变成一个“解雇语言学家”的冷面老板?最大的问题可能出在主流语言学的研究材料和方法上。如上所述,自然语言处理需要面对真实的、多样化的语言,如同在大千世界里自然生长的灌木丛。如果像栽培花园里的花朵一样,只用几个精选好的句子,可能难以发现真实语言的规律。
无论是传统语言学还是现代语言学,研究的对象都是人类语言。不管语言学家是否准备好了,信息时代都已来临。信息的主要载体之一是语言,信息时代的语言研究可能要同时考虑人和计算机的需 要,这是一种信息时代的语言观。自然语言处理所面对的是真实的语言材料,真实语言最显著的特点是概率性,即,语言的合法性介于可能与不可能之间,具有梯度性,而不是非此即彼的简单二分。科学研究一般均涉及抽象建模的过程。模型的特征对应的是研究对象可观察的属性。理论并不能直接解释现实世界本身,而是要通过抽象之后的模型以及它所对应的现实来进行解释。因此,理论的预测能力取决于模型和现实之间的对应关系。如果在建模的过程中忽略了研究对象最本质的特性,没有反映其真实面貌,那么通过这一模型发现的成果最后就很难被别人使用。这可能是绝大多数语言学家被计算语言学所抛弃的重要原因之一。当然,我们不能仅以此例来评价语言学存在的意义与价值。但布里斯南从“花园”走向“灌木丛”的经历,说明信息时代的语言研究可能正面临着重要转变。
毋庸置疑,20世纪50年代起,乔姆斯基所倡导的语言形式化方法与理论为我们带来了一场语言学革命。然而,这几十年语言研究的理论与实践均表明,语言研究可能还需要一些新的转变。具体而言,第一,在研究对象上,应更多地关注真实的语言材料,关注人与语言系统的关系;第二,在研究方法上,需要根据真实语言材料的特点,采用先进的技术手段与研究方法,以此来弥补内省法或定性手段的不足 ;第三,在模型选择上,更需要关注模型的跨语言有效性,而不囿于某种特定的语言,因为语言学研究的是人类的语言,语言学家所发现的规律更多的应该是人类语言的普遍规律。否则,语言研究者可能会离这个时代越来越远。
大数据时代为语言研究带来新机遇
首先,基于数据的方法为我们提供了感知研究对象的量化维度,令我们对研究对象有一个更清晰、更精确、更细微的认识。宛如从不同的距离和视角观察同一个事物,从宏观到微观,随着观测距离的推近与拉远,所看到的世界以及给人们带来的体验会很不一样。有了更多的真实语言材料,有助于更深入而真实地反映语言的概貌。基于数据的方法能反映语言的一些本质特征,其中一个特征是语言的概率性 。例如,在以内省法为研究手段的语言学中,打星号(“*”)标记的句子,按母语者的语感是不符合语法或不能接受的。然而在日常生活中,这些打了星号的句子实际上有相当一部分人在使用。大量研究表明,人们理解或产出的语言,按照规定性语法,并不是“能接受”与“不能接受” 的绝对二分,而是介于两者之间。假如有大量语言数据的支撑,那么在很难描述某种说法的合理性时,也就便于更细致地区分语法上可接受的程度。数据手段有助于更好地反映语言的真实状态和本质特点,正如伯纳德·科姆里(Bernard Comrie)在《语言共性和语言类型》前言中的最末一句话 :“语言学研究语言,而语言是民众实际所讲的语言。”
此外,数据能更好地帮助我们研究人类的语言规律和认知规律之间的关系。我们知道,语言是一个符号系统。而以往的很多研究把人与语言分离开来,只做纯粹的形式符号分析。但实际上,语言是由人驱动的符号系统,或更精确地讲,是一种人驱复杂适应系统。语言的结构模式和演化规律均受到生理、心理、认知等内部因素,以及自然社会等外部因素的综合影响。其中,内部因素的普遍性决定了语言的共性,外部因素的差异造就了语言的多样性。一方面,认知普遍性在一定程度上决定了语言的普遍性。例如,递归被认为是人类语言最本质 的特点,但实际上递归并非是无穷的,三层以上的递归现象在实际使用中很少出现。人不能完全等同于机器,人是受到认知因素约束的。另一方面,人生活在一定的自然环境和社会环境中,这些自然、社会、文化等因素可能会对语言有所影响,从而形成了世界上多种多样的语言。因此,从大量来自于真实语言运用的数据出发,有助于我们更好地发现或解释人类语言的普遍性和多样性。